JSAI2026 マルチモーダル生成AIモデルを用いた金融非構造化データからの情報抽出
テーマ
有価証券報告書に含まれる複雑な表から、必要なセル位置と値を抽出する研究 テキストLLMではなく、表を画像として読めるVLMを使う点が中心 画像入力での理解を検証
背景課題
有価証券報告書の表は、結合セル・多階層ヘッダ・注記・単位表記などが多い 複雑表問題だ daiiz.icon
MarkdownやJSONに変換すると、表の二次元構造や視覚的な手がかりが失われる
金融データ分析では、こうした表情報を正確に構造化することが重要
提案
HTML表を画像としてレンダリングし、VLMに入力する 画像トークンとして食わせる
画像入力だけでなく、行列番号や補助テキストも併用する
テキスト処理と画像処理の両方から、VLMが表を読みやすくなるよう最適化する
テキスト処理の工夫
回答を「行・列番号」や「値」だけに制限し、余計な生成を抑える
決算期、単位、多階層ヘッダなど、有価証券報告書特有の読み方をプロンプトに入れる
表の周辺見出しや注記などの文書コンテキストも補助情報として与える
画像処理の工夫
表を画像化するときのフォントサイズ、罫線、DPI、コントラストなどを調整する
VMLの特性から、罫線を除去すると精度が上がるらしい daiiz.icon 単に高解像度にするより、VLMにとって見やすい表画像にすることが重要
罫線除去やフォント拡大が効果的だった
実験
対象
有価証券報告書中の表に対する質問応答
モデルはVLMとテキスト専用LLMを比較
ベースラインでの表の入力はJSONかMarkdown
結果
VLM化により、テキスト専用LLMよりセル特定精度が大きく向上
画像処理の影響が最も大きく、テキストガイダンスは補助的に効く
知見
Few-shot: 手本が多いほど効く
Reasoningでの思考の延長(thinking tokens 増)しても精度は変わらない
VLMでは「情報を削る・並べ替える」より、「画像との整合性を保つ」ことが重要
表抽出では、テキスト化よりも視覚構造を残すことが効く
設計原則: 鍵は入力の質
VLMの性能はモデルだけでなく、入力画像の作り方に強く依存する